查看原文
其他

阿里云安全产品专家杨杜卿:守护云端数据要素的安全实践

阿里云用户组 云布道师 2023-06-18

云布道师

2022 年 11 月 25 日,阿里云用户组(AUG)第 13 期活动在杭州举办。活动现场,阿里云安全产品专家杨杜卿向参会企业代表分享了守护云端数据要素的安全实践。本文根据其分享内容整理而成。

数据引领生产变革

安全驱动价值落地

数据安全到底是什么样的一个东西呢?为什么这两年数据安全这么样热呢?其实在五年前,我相信大家可能听到过马老师的一句话:我们的世界正在从 IT 到 DT 转变。当时我们也不是特别理解什么叫做从 IT 到 DT 转变,现在回过头来看,他当时已经看到数据会成为数字经济时代的一个生产要素,同农业时代的土力、工业时代的技术一样重要。
我们知道,整个人类的经济发展过程中经历了农业革命、工业革命、数字革命,农业时代的时候,劳动力与土地是最重要的生产要素,所以那时候世界会去抢人抢土地。到了工业时代的时候,资本与技术成为了最重要的生产要素,所以世界会去抢资本抢技术。等到了这个数字经济时代的时候,我们发现数据成了一个重要的生产要素,所以今天很多的公司都在抢数据。

全球数据安全态势

数据关联利益驱动的攻击持续上升

在互联网兴起的初期,我们并不太在意说这家公司拥有了多少的数据。其实在 IT 的时代,我们更多的数据是一种向外的公开数据。当时最流行的是门户网站,比如说搜狐、新浪,他们的数据是希望越来越多被人广泛认知的公共数据。这些数据的来源是由新闻编辑编写的、总编辑审核的,而编辑是要符合法律法规审核过的,这些数据才会给大家做新闻数据分享。而今天的数据时代,企业掌握的数据已不再是简单的公共数据,企业掌握的数据可以产生经济效益价值。
我们看两个例子。Facebook 在 2019 年 4 月份的时候,无意间泄露了 5.3 亿用户的敏感数据。数据泄露了之后,一家名为剑桥分析的公司利用这个数据来进行用户心理画像的分析,最终竟然影响了大选和脱欧选举,这个结果是这家公司所未能预想到的。
第二个例子是 LinkedIn,我们都知道 LinkedIn 是全球现在最大的一个招聘社交网站,上面所存储的信息非常重要。在 2021 年 6 月份的时候,LinkedIn 在暗网上面被出售了 7 亿的用户数据,而这些数据为 PII 级信息数据。什么叫 PII 信息数据?简单来说就是拿到这个数据,可以对当前的这个人进行真实性识别即个人可识别信息。也就是说 PII 级数据就可以确定你是哪里人,你的性别,甚至可以确认到非常隐私的个人信息范围。这个数据就很可能用于诈骗、钓鱼等一系列风险攻击。所以这个数据信息看似是 LinkedIn 业务上的数据,但一旦泄露了之后,对用户来讲会造成不可逆的损失。

定义数据安全

数据安全定义的变迁

过去 IT 时代的数据载体,讲的都是一些公共的数据。我们希望大家能看到,更广泛的交换传播。我记得最早的时候应该在 1998 年的时候,我们在公交车上经常看见说你今天上网了吗?你今天冲浪了吗?用户更多希望自己在互联网“被看见”。
在这个时期,互联网公司最重要的是数据库的安全及版权的保护,所以那时候数据安全喊得最响的,是音乐、图片、新闻稿的知识产权保护。但是到了 DT 时代就不一样了。因为数据自身就是有价值的,每一个人的每一条信息,每发一条微博或微信朋友圈,都可能产生这样一个数据的价值,存在被泄露、破坏、滥用等风险。

云端数据流转地图

数据如新经济时代的石油

如刚才所讲,过去的一家 IT 企业,通常是 OA 产生数据,销售平台产生数据,编辑产生数据,我们的数据来源非常少。如今,企业的业务构建全部基于数据,我们就变得非常复杂了。我们的应用系统,我们的数据库,我们的合作伙伴,我们的日志数据等都可以被大数据或者是数据源应用起来,也产生了对外部的市场营销 、BI 分析以及外部合作等数据价值。
安全体系里面生产数据与测试数据之间的隔离,其实在很多 IT 企业里面并没有被特别重视。在测试里面泄露数据更容易,对公司也更有伤害性。

做好数据安全的挑战

数据给我们带来了什么样的一个新的安全挑战呢?我过去做主机侧安全的研发,我们是理清资产,透明风险,减少防御复杂度,减小暴露面。刚才我听到大家有说云安全中心 AK 泄露对我们很有用,有说云安全中心资产露面对我们很有用。这都是我们基于上面的核心思路为大家提供的功能。
我们再来看数据就复杂得多了。首先数据的透明度非常低。因为你整个业务系统里面所有地方都有自己的数据。我们曾经有一个客户问:“我今天想对我们企业敏感数据进行一个梳理,但是我都不知道企业内有多少个数据库。”那这个时候你怎么样对你的敏感数据进行梳理?同时,企业的业务变化也很快,意味着数据字段变化也很快。而且数据是在流动的,这时候数据的风险透明度就非常低。
第二是复杂性非常高。今天我们说的数据安全不再是传统结构化的数据库安全。我们存储在 OSS 的一份文档,一张人脸图片,一个车牌图片都是你的数据,这些数据都可能产生我们之前提到的风险。它的类型非常多,它的种类也非常多,它的数量级又非常大。
第三是暴露面特别大。因为你想做业务就要数据流动。我举一个非常简单的例子,你是做快递的业务,那你总是要把这个快递单上用户的收货地址、联系电话告诉企业送货员才行。这就是一种数据暴露,有可能这个时候这个送货员就会收集这些数据,然后泄漏这些数据给企业造成风险。那我们如何去做数据安全控制呢?我们要通过安全产品能力帮助我们自动化实现这些风险的透明和防护。

安全驱动数据价值落地

云端数据安全建设实践

我们要做数据治理的时候,首先我们要感知风险,其实这个跟我们做普通的技术安全防护是一样的。你要理清你的数据资产,发现敏感分布。其次我们要做风险治理,今天在做安全的这些同学里面,尤其是做数据安全的同学,你们心中都有这样的一张大图。我们要把风险分级,通过不同的等级建立先后顺序,将风险分域逐步改造。
最后一个就是防护。因为百密一疏,安全做得再好,都可能会出现泄露风险。有可能不是自己的泄露,有可能是合作伙伴的泄露,也有可能是供应商的泄露。所以这个时候,我们要能够及时知道自己泄露的内容,并对应拥有处置方案。数据安全中心的本质也是向着这个方向去发展,实现可管可控的数据安全治理平台。

全域业务数据感知

我们仔细来看一下,想做到数据可视,会面临一个什么样的状态。我们的结构化数据、非结构化数据都是数据,一个客户说我想梳理一下我的这个敏感数据。他第一反应是说,我想知道我现在有多少数据库,我数据库里面有多少张表,有哪些敏感字段。但他没有想到的是,他在 OSS 上面存的那些数据也是数据,也要看有多少数据资产,有多少风险文件。在这种交流的过程中间,我们在他的 OSS 里面扫描出来了身份证、电话号码,甚至一些非常敏感数据比数据库中存放得还要多。这些数据其实都是你的数据。所以在整个数据感知领域里面,我们要考虑三个比较大的对象:
第一个叫做对象存储,就是非结构化的数据。比如说 KV 数据,图版数据,文档数据等,都可能里面会有隐含的敏感数据。
第二个是我们最核心的数据仓库。因为我们大量的企业运行数据存放在数据仓库中,而且它的流动性最强。所以要做好整个数据仓库全面检查,而且要做到定时的排查甚至实时排查。
第三个就是大数据。今天大数据已经在我们每一个人的生活中,无时无刻都能感受到大数据对我们的影响。比如说我进到那个那个停车场,然后我一扫车牌,出来时我车辆就会无感支付。比如说我在网络上购物,去买了一个非常喜欢的东西,或者我经常看某一种东西,网站就会智能地帮助我选货。所以我们要对全量数据的类型进行识别,理清我们自己的资产。同时要搞清楚数据流转,在每一个流转环节里面监测这些数据。
基于这些数据,我们能绘制出来自己的数据全景图。能够清晰地让管理者了解到我们有哪些敏感数据,有哪些部门是数据高危部门。

云端数据安全治理

数据成为了重要的资源,国家对数据重视也日益加强,逐渐建立起了一系列的法律法规。我们怎么借助于法律法规的条件帮助我们自己的企业实现数据安全的建设并使它合法合规呢?
我们需要借助于工具。我们要把法规要求、企业的诉求转化为规则,转化为机器可识别的自动化规则,通过工具帮助我们识别出来的信息进行分类,把它们分为不同等级(如机密级、保密级),然后对应不同分类等级去做治理,我们的运维、安全、法务通过感知能力来监督治理。

数据风险动态防控

如果刚才我们所讲的这些东西都做了,这个时候我们还要做动态的监控。因为我们知道数据像水一样在流动。我们要时时刻刻地看到它。在每一个过程中间,我们要做事前、事中、事后的三级防护能力。这个也是我们数据安全中心现在的努力方向。

数据安全一体化方案

在阿里云上,数据安全能力不只是提供了数据安全中心。今天数据安全中心只是帮助大家去完成了数据安全的管理。其实在大家在日常过程工作中,我们提供了等保服务、安全管家的服务治理能力,同时还提供了从基础安全到密码安全一体化的数据安全解决方案。如刚才有同学提到的 AK 泄漏问题,在 KMS 产品提供了 AK\RDS\ECS 等常用的凭据托管能力,实现应用级无 AK、无密码的保护。这都是数据安全防护的一部分。

/ 相关推荐 /

↓↓↓



你可能还想看

1. 学生速看!免费领取一台阿里云服务器!

2. 云存储生态构建的技术基因和最佳实践

3. 阿里云何川:挖掘云原生能力,助力SaaS企业实现私有化部署与订阅模式的二元归一

4. HEIC & AVIF 图片硬件压缩方案详解

5. 阿里云办公安全产品专家高传贵:零信任,让全球办公安全更简单

关注我们

欢迎关注加星标✨ 回复关键词可领取相关技术白皮书

随机抽取送技术图书 · 重大节日发放文创纪念品

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存